Red Wine Quality Exploration

Seção de Gráficos Univariados

## [1] 1599   13
##  [1] "X"                    "fixed.acidity"        "volatile.acidity"    
##  [4] "citric.acid"          "residual.sugar"       "chlorides"           
##  [7] "free.sulfur.dioxide"  "total.sulfur.dioxide" "density"             
## [10] "pH"                   "sulphates"            "alcohol"             
## [13] "quality"
##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000
## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...

## 
##   3   4   5   6   7   8 
##  10  53 681 638 199  18

O data set analisado possui 1.599 vinhos. As notas dos especialistas variaram entre 0 (muito ruim) e 10 (excelente. Não há vinhos com notas 0, 1, 2, 9 e 10. Os extremos da faixa, nível 3 e 8, possuem as menores quantidades no conjunto, totalizando 10 e 18, respecitvamente. A maior quantidade de vinhos no data set são de qualidade 5 e 6, com 681 e 638, respectivamente.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.60    7.10    7.90    8.32    9.20   15.90

Variável “fixed.acidity”, contínua, com mínimo de 4,60 e máximo de 15,90. Originalmente com leve tendência à direita em sua distribuição. A tranformação logarítimica resultou numa distribuição mais equilibrada.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3900  0.5200  0.5278  0.6400  1.5800

Variável “volatile.acidity”, contínua, com mínimo de 0,12 e máximo de 1,58. Como a anterior, possui desvio à direita. A tranformação logarítimica resultou numa distribuição mais equilibrada.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.090   0.260   0.271   0.420   1.000

Variável “citric.acid”, contínua, com mínimo de 0 e máximo de 1. Não apresenta uma distribuição normal. A transformação logarítimica não apresentou resultado satisfatório.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.539   2.600  15.500

Variável “residual.suggar”, contínua, com mínimo de 0,9 e máximo de 15,5. Sua distribuição apresenta forte desvio à direita. A transformação logarítimica reduziu o desvio.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100

Variável “chlorides”, contínua, com mínimo de 0,012 e máximo de 0,611. Possui distribuição com forte desvio à direita. A transformação logarítimica tornou a distribuição mais próxima da curva normal.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    7.00   14.00   15.87   21.00   72.00

Variável “free.sulfur.dioxide”, contínua, com mínimo de 1 e máximo de 72. Distribuição com forte desvio à direita. A transformação logarítimica diminuiu o desvio.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   22.00   38.00   46.47   62.00  289.00

Variável “total.sulfur.dioxide”, contínua, com mínimo de 6 e máximo de 289. Apresenta forte desvio à direita. A transformação logarítimica diminuiu o desvio da distribuição.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9956  0.9968  0.9967  0.9978  1.0037

Variável “density”, contínua, com mínimo de 0,9901 e máximo de 1,0037. Apresenta distribuição próxima da curval normal.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.210   3.310   3.311   3.400   4.010

Variável “pH”, contínua, com mínimo de 2,74 e máximo de 4,01. Apresenta distribuição próxima da curva normal.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.5500  0.6200  0.6581  0.7300  2.0000

Variável “sulphates”, contínua, com mínimo de 0,33 e máximo de 2. Apresenta distribuição com desvio à direita. A transformação logarítimica diminuiu o desvio.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90

Variável “alcohol”, contínua, com mínimo de 8,4 e máximo de 14,9. Apresenta algum desvio à direita. A transformação logarítimica não apresentou resultado satisfatório.

Análise Univariada

Qual é a estrutura do conjunto de dados?

O data set possui 1.599 vinhos registrados e 13 variáveis, sendo 12 com características dos vinhos e uma de identificação.

As 12 variáveis descritivas são:

[2] “fixed.acidity”
[3] “volatile.acidity”
[4] “citric.acid”
[5] “residual.sugar”
[6] “chlorides”
[7] “free.sulfur.dioxide” [8] “total.sulfur.dioxide” [9] “density”
[10] “pH”
[11] “sulphates”
[12] “alcohol”
[13] “quality”

A variável “quality” é categórica, com níveis de resposta: 3, 4, 5, 6, 7, 8. As demais variáveis são contínuas.

Quais são os principais atributos de interesse deste conjunto de dados?

A princípio, os dois principais atibutos são o “pH” do vinho e a sua “quality”. Como pressuposto inicial, acredito que o pH é a principal variável para predizer a qualidade do vinho. Contudo, na próxima seção será tratada a identificação de correlação entre todas as variáveis, de modo que possamos identificar (ou não) outras variáveis que possam contribuir para um futuro modelo preditivo.

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

É possível que todas as demais varíaveis possam contribuir para a determinação da qualidade do vinho.

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Sim. Adotou-se como novas variáveis as transformações logarítimicas que apresentaram sucesso na diminuição dos desvios das distribuições originais. As novas variáveis foram:

[1] fixed.acidity.log [2] volatile.acidity.log [3] residual.suggar.log [4] chlorides.log [5] free.sulfur.dioxide.log [6] total.sulfur.dioxide.log [7] sulphates.log

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê?

Foram encontradas distribuições com desvios à direita. Para isso, empregou-se a tranformação por logarítimos com o intuito de se obter uma distribuição sem desvio (mais próxima da curva normal) ou com o menor desvio possível.

Seção de Gráficos Bivariados

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0050  0.0350  0.1710  0.3275  0.6600 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0300  0.0900  0.1742  0.2700  1.0000 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2300  0.2437  0.3600  0.7900 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2600  0.2738  0.4300  0.7800 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.3050  0.4000  0.3752  0.4900  0.7600 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0300  0.3025  0.4200  0.3911  0.5300  0.7200

Vinho de melhor qualidade (nível 7 e 8) possuem valores mais altos para “citric.acid”

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9947  0.9961  0.9976  0.9975  0.9988  1.0008 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9934  0.9957  0.9965  0.9965  0.9974  1.0010 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9926  0.9962  0.9970  0.9971  0.9979  1.0031 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9954  0.9966  0.9966  0.9979  1.0037 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9906  0.9948  0.9958  0.9961  0.9974  1.0032 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9908  0.9942  0.9949  0.9952  0.9972  0.9988

Vinhos de melhor qualidade possuem valores de “desity” menores

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.160   3.312   3.390   3.398   3.495   3.630 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.300   3.370   3.382   3.500   3.900 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.880   3.200   3.300   3.305   3.400   3.740 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.860   3.220   3.320   3.318   3.410   4.010 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.920   3.200   3.280   3.291   3.380   3.780 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.880   3.163   3.230   3.267   3.350   3.720

Vinhos de melhor qualidade possuem pH com menores valores.

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.400   9.725   9.925   9.955  10.575  11.000 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.00    9.60   10.00   10.27   11.00   13.10 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     8.5     9.4     9.7     9.9    10.2    14.9 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.80   10.50   10.63   11.30   14.00 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.20   10.80   11.50   11.47   12.10   14.00 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.80   11.32   12.15   12.09   12.88   14.00

Vinhos de melhor qualidade possuem maiores valores de “alcohol”

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.902   1.967   2.015   2.105   2.285   2.451 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.526   1.917   2.015   2.031   2.128   2.526 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.609   1.960   2.054   2.084   2.186   2.766 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.548   1.946   2.067   2.100   2.241   2.660 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.589   2.001   2.175   2.158   2.313   2.747 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.609   1.981   2.109   2.117   2.325   2.534

A variável “fixed.acidity.log” não apresenta diferença substancial entre as categorias de qualidade de vinho.

## wineQuality$quality: 3
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.820981 -0.439331 -0.169049 -0.184577  0.009801  0.457425 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -1.4697 -0.6349 -0.4005 -0.4198 -0.1393  0.1222 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -1.7148 -0.7765 -0.5447 -0.5920 -0.4005  0.2852 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -1.83258 -0.96758 -0.71335 -0.75351 -0.51083  0.03922 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -2.12026 -1.20397 -0.99425 -0.96806 -0.72366 -0.08883 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -1.3471 -1.0940 -0.9946 -0.9051 -0.7519 -0.1625

Os vinhos de melhor qualidade possuem valores menores para “volatile.acidity”

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1823  0.6263  0.7419  0.8601  1.1149  1.7405 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2624  0.6419  0.7419  0.8744  1.0296  2.5572 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1823  0.6419  0.7885  0.8490  0.9555  2.7408 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.1054  0.6419  0.7885  0.8296  0.9163  2.7344 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1823  0.6931  0.8329  0.9127  1.0114  2.1861 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3365  0.5878  0.7408  0.8617  0.9555  1.8563

A variável “residual.sugar.log” não apresenta diferença substancial entre as categorias de qualidade de vinho.

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -2.797  -2.539  -2.405  -2.211  -1.945  -1.321 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -3.1011 -2.7031 -2.5257 -2.5127 -2.4191 -0.4943 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -3.2442 -2.6037 -2.5133 -2.4524 -2.3645 -0.4927 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -3.3814 -2.6846 -2.5510 -2.5243 -2.4304 -0.8795 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -4.423  -2.781  -2.617  -2.622  -2.442  -1.027 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -3.124  -2.781  -2.652  -2.697  -2.584  -2.453

A variável “chlorides.log” não apresenta diferença substancial entre as categorias de qualidade de vinho.

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.099   1.609   1.792   2.111   2.655   3.526 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.099   1.792   2.398   2.265   2.708   3.714 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.099   2.197   2.708   2.621   3.135   4.220 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   2.079   2.639   2.547   3.045   4.277 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.099   1.792   2.398   2.407   2.890   3.989 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.099   1.792   2.013   2.300   2.802   3.738

Os valores mínimos e máximos da variável “free.sulfur.dioxide.log” variam nas classes de qualidade do vinho. Contudo, não é possível identificar valores exclusivos para cada faixa de qualidade. Praticamente nenhuma relação entre as duas variáveis.

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.197   2.523   2.706   3.011   3.729   3.892 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.946   2.639   3.258   3.310   3.892   4.779 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.792   3.258   3.850   3.795   4.431   5.043 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.792   3.135   3.555   3.529   3.989   5.106 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.946   2.862   3.296   3.302   3.761   5.666 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.485   2.773   3.061   3.280   3.758   4.477

Da mesma percepção do anterior, a variável “total.sulfur.dioxide.log” não permite uma diferenciação clara dentre as faixas de qualidade de vinho. Praticamente nenhuma relação entre as duas variáveis.

## wineQuality$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.9163 -0.6685 -0.6070 -0.5808 -0.4871 -0.1508 
## -------------------------------------------------------- 
## wineQuality$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -1.1087 -0.7133 -0.5798 -0.5625 -0.5108  0.6931 
## -------------------------------------------------------- 
## wineQuality$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.9943 -0.6349 -0.5447 -0.5050 -0.4155  0.6831 
## -------------------------------------------------------- 
## wineQuality$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.9163 -0.5447 -0.4463 -0.4148 -0.2877  0.6678 
## -------------------------------------------------------- 
## wineQuality$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.9416 -0.4308 -0.3011 -0.3160 -0.1863  0.3075 
## -------------------------------------------------------- 
## wineQuality$quality: 8
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.46204 -0.37106 -0.30111 -0.27396 -0.19845  0.09531

Valores maiores da variável “sulphates.log” indicam relação com as melhores qualidades de vinho.

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

Dentre as 12 variáveis analisadas, foram encontradas algumas correlações medianas (menor que 0.7) e apenas duas mais fortes (0.71 e 0.78). A principal variável de interesse é “quality”, cujo resultado pode ser influenciado pelas demais variáveis.

  • A maior correlação com “quality” foi de 0.48 da variável “alcohol”. Todas as demais ficaram igual ou menor que 0.3.
  • “free.sulfur.dioxide.log” e “total.sulfur.dioxide.log” apresentaram correlação de 0.78.
  • “ph” e “fixed.acidity.log” apresentaram correlação negativa de 0.71
  • Ambas as variáveis “citric.acid” e “density” apresentaram corrlelação de 0.67 com “fixed.acidity.log”.
  • Inicialmente acreditava-se que o “pH” seria um forte elemento indutor da qualidade do vinho, e a análise inicial mostrou que não. O “pH” e “quality” apresentaram um correlação de apenas -0.06, ou seja, praticamente zero.

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Sim. Em dois casos. - A boa correlação entre as duas variáveis “sulfur.dioxide”, com 0.78, já era previsível tendo em vista, pelo nome, terem a mesma origem. - Um segundo caso foi a relação da variável “fixed.acidity.log”, com os resultados de 0.67, 0.67 e -0.71, em relação as variáveis “citric.acid”, “density” e “pH”, respectivamente.

Qual foi o relacionamento mais forte encontrado?

Foi de 0.78 entre “free.sulfur.dioxide.log” e “total.sulfur.dioxide.log”

Seção de Gráficos Multivariados

No gráfico acima nos eixos x e y as variáveis “fixed.acidity.log” e “density”, cuja correlação é de 0.67. É possivel observar a tendência positiva da disposição dos pontos. A variável “quality” foi inserida por meio da cor dos pontos.

O gráfico acima apresenta a relação positiva entre “fixed.acidity.log” e “density”, cuja correlação entre as mesmas é de 0.67. A váriavel “citric.acid” aparece destacando o conjunto, onde seu valores maiores (pontos azuis claros) estão em consonância com os valores maiores das outras duas variáveis (quadrante direito superior).

Observa-se no gráfico acima a relação positiva entre qualidade do vinho e o alcool. Observa-se ainda que a variável “volatile.acidity.log” diminui a medida que a qualidade do vinho aumenta.

Valores maiores de “volatile.acidity.log” estão presentes em vinhos de menor qualidade, juntamente com o acído cítrico.

Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

A pouca correlação entre a maioria das variáveis é um indicativo da baixa relação entre as mesmas desse conjunto. Não se identificou relações muito relevantes entre as variáveis.

As variáveis “fixed.acidity.log”, “density”, “citric.acid” possuem uma boa relação entre si, de forma a se identificar uma “tendência” na dispersão dos pontos. Contudo, não demonstram a mesma relação com a qualidade do vinho.

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

Não foram encontrados. Na análise dos gráficos com três variáveis, não é possível afirmar que há “interações surpreendentes”. A baixa relação entre as variáveis não permite isso.

OPCIONAL: Modelos foram criados usando este conjunto de dados? Discuta sobre os pontos fortes e as limitações do seu modelo.

Não foram criados modelos neste projeto.

Gráficos Finais e Sumário

Primeiro Gráfico

Descrição do Primeiro Gráfico

Dos 10 níveis de qualidade de classificação dos vinhos, o data set apresenta somente vinhos com notas entre 3 e 8. A maior parte dos vinhos receberam notas 5 e 6.

Segundo Gráfico

Descrição do Segundo Gráfico

Vinhos com maiores notas no quesito qualidade indicam maiores níveis de alcool. Contudo, pelo “empareamento” dos boxplots, não é possível afirmar que o teor de álcool seja uma variável discriminante para os níveis de qualidade dos vinhos.

Terceiro Gráfico

Descrição do Terceiro Gráfico

O gráfico apresenta redução da mediana do nível de acidez volátil a medida que a qualidade do vinho aumenta. Contudo, pelo “empareamento” dos boxplots, não é possível afirmar que o nível de acidez seja uma variável discriminante para os níveis de qualidade dos vinhos.


Reflexão

É sabido que dentre as muitas centenas de tipos de vinhos, disponíveis nas prateleiras das lojas, há vinhos dos mais diversos tipos, com qualidades diferentes e preços diferentes. Também é sabido que a qualidade de um vinho é determinada por fatores conhecidos e manipulados pelos produtos, como o tipo da terra, o tipo da uva, índices de acidez etc.

No data set analisado, com 11 variáveis de propriedades químicas do vinho, nesta etapa de análise, verificou-se que há pouca relação entre as variáveis. Não foram encontradas evidências iniciais que possibilitem afirmar que há elementos discriminantes para os níveis de qualidade do vinho que propiciem a formulação de um modelo classificador numa etapa futura. Essa percepção é decorrente das baixas correlações encontradas, ou ainda da pouca diferença apresentada nos gráficos de boxplot e nos de disperção.